代理类型(proxy):透明代理 匿名代理 混淆代理和高匿代理. 这里写一些python爬虫使用代理的知识, 还有一个代理池的类. 方便大家应对工作中各种复杂的抓取问题。
urllib 模块使用代理
urllib/urllib2使用代理比较麻烦, 需要先构建一个ProxyHandler的类, 随后将该类用于构建网页打开的opener的类,再在request中安装该opener.
代理格式是"http://127.0.0.1:80",如果要账号密码是"http://user:password@127.0.0.1:80".
1
2
3
4
5
6
7
8
9
|
proxy
=
"http://127.0.0.1:80"
# 创建一个ProxyHandler对象
proxy_support
=
urllib.request.ProxyHandler({
'http'
:proxy})
|